11. Inferencia en Estadística Paramétrica#

11.1. Distribuciones de estadísticos muestrales#

11.1.1. La distribución chi-cuadrado#

Sean \(Z_1,\cdots, Z_k\, v.a.i.i.d. \, \sim {\it N}(0,1)\) entonces

\[ Y = Z_1^2+\cdots+Z_k^2 \sim \chi_{(k)}^2\]

donde \(k\) son los grados de libertad de la distribución, y es un entero positivo.

La función de densidad de probabilidad de una chi-cuadrado cumple:

\[\begin{split}\begin{equation} \begin{array}{ll} f(x;k) = \left\{\begin{array}{ll} {\frac{1}{2^{k/2}\Gamma(k/2)}}x^{(k/2)-1}e^{-x/2} & x\, \geq 0\\ 0 & x\, <0\\ \end{array} \right .\\ \end{array} \end{equation}\end{split}\]

con

\[\Gamma(\alpha) = \int_0^{\infty} x^{\alpha-1} e^{-x}dx\]

Además

\[\begin{split} E[X]= k \\ Var[X]= 2k \\ \end{split}\]
suppressMessages(library(dplyr))
suppressMessages(library(plotly))
suppressMessages(library(ggplot2))
suppressMessages(library(rmarkdown))
vec <- seq(0,20,by=0.05)
params <- c(1:15)
pvec <- list()
for (i in 1:length(params)){
    pvec[[i]] <- dchisq(vec,df=params[i],ncp=0)
}
steps <- list()
fig <- plot_ly(width=600,height=600) %>% layout(title = "\n \n Densidad de Probabilidad Chi-cuadrado",
                                                 yaxis = list(range=c(0,0.5)))
for (i in 1:length(params)){
    fig <- add_lines(fig, x=vec, y=pvec[[i]], 
                     visible=if (i==1) TRUE else FALSE,
                     mode='lines', line=list(color='blue'), showlegend=FALSE)
    steps[[i]] = list(args = list('visible', rep(FALSE, length(params))), 
                      label=params[i], method='restyle')
    steps[[i]]$args[[2]][i] = TRUE
}
fig <- fig %>% layout(sliders = list(list(active=0, currentvalue = list(prefix = "df: "), steps=steps)))
fig

Propiedad de suma de v.a. chi-cuadrado independientes

Sean \(X\) e \( Y\) dos v.a. independientes con \(X \sim \chi^2_{(n)}\) e \(Y \sim \chi^2_{(m)}\) entonces se cumple: \( X+Y \sim \chi^2_{(n+m)}\)

11.1.2. Distribución de la media y varianza muestral del caso Normal#

Teorema de Fisher-Cochran

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) entonces la media y varianza muestral cumplen:

\(\begin{equation} \begin{array}{lcll} (i) & \bar{X} &\sim& {\cal N}(\mu, \frac{\sigma^2}{n})\\ \\ (ii) & {\displaystyle \frac{(n-1)S^2}{\sigma^2}}& \sim& \chi_{(n-1)}^2 \\ \\ (iii)& \bar{X} &{\mathrel \perp} & S^2 \quad \text{(independentes)}\\ \end{array} \end{equation}\)

Nota

Para la primera propiedad, se utiliza el Teorema Fundamental Distribuciones Normales (la combinación lineal de v.a. independientes Normales es Normal):

Sean \(X_1,\cdots,X_n\) v.a. independientes con \(X_i \sim {\cal N}(\mu_i,\sigma_i^2)\), entonces la combinación lineal \(Y = \sum\limits_{i=1}^n c_i X_i\) es Normal con \(Y \sim \cal N(\sum\limits_{i=1}^n c_i \mu_i, \sum\limits_{i=1}^n c_i^2 \sigma_i^2)\)

11.1.3. La distribución t-student#

Sean \(Z \sim {\it N}(0,1)\) y \(X \sim \chi^2_{(n)}\) y son independientes, se define la v.a.

\[T = \frac{Z}{\sqrt{\frac{X}{n}}} \sim {\cal t}_{(n)}\]

que sigue una distribución t-student de n grados de libertad. Cuando n es grande, \(T\) tiene aproximadamente una distribución de Z (por ley débil de los grandes números).

Su función de densidad de probabilidad es:

\[ f(x) = f(t) = \frac{\Gamma(\frac{n+1}{2})} {\sqrt{n\pi}\,\Gamma(\frac{n}{2})} \left(1+\frac{t^2}{n} \right)^{\!-\frac{n+1}{2}},\! \]

y la media y varianza:

\(\begin{equation} \begin{array}{lll} E[X] &= &0\\ Var(X)& =& \dfrac{n}{n-2}\\ \end{array} \end{equation}\)

La varianza esta definida para valores de \(n \gt 2\).

Corolario (del Teo Fisher-Cochran)

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\it N}(\mu,\sigma^2)\) entonces se cumple:

\[ \frac{(\bar{X} - \mu)}{\frac{S}{\sqrt{n}}} \sim t_{(n-1)}\]

donde \(S\) es la desviación estándar muestral:

\[S = \sqrt{ \frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})^2 }\]

Grados de Libertad (df)

Los grados de libertad se refieren al número de valores que pueden variar libremente, dado un conjunto de restricciones matemáticas (o número de parámetros estimados), en una muestra que se utiliza para estimar las características de una población.

Por ejemplo, para estimar la varianza de una población, primero se estidma la media de la población. Por lo tanto, si estimamos la varianza de la población con n observaciones, esta estimación tiene (n-1) grados de libertad. Asi, en un t-test de una muestra, un grado de libertad se utiliza en estimar la media y los n-1 restantes en estimar la variabilidad.

set.seed(1)
vec <- seq(-5,5,by=0.05)
params <- seq(1,20,by=1)
pvec <- list()
for (i in 1:length(params)){
    pvec[[i]] <- dt(vec, df=params[i])
}
pvec_Z <- dnorm(vec)

steps <- list()
fig <- plot_ly(width=600,height=600) %>% 
       layout(title = "\n \n Densidad de Probabilidad t-student", yaxis=list(range=c(0,0.45))) %>%
       add_lines(x=vec, y=pvec_Z, visible=TRUE, mode='lines', line=list(color='blue'), showlegend=TRUE, name="Z") 
for (i in 1:length(params)){
    fig <- add_lines(fig, x=vec, y=pvec[[i]], visible=ifelse(i==1, TRUE, FALSE), mode='lines', line=list(color='red'), showlegend=TRUE, name="T")
    steps[[i]] = list(args=list('visible', rep(FALSE, length(params)+1)), label=params[i], method='restyle')
    steps[[i]]$args[[2]][1] = TRUE
    steps[[i]]$args[[2]][i+1] = TRUE
}
fig <- fig %>% layout(sliders=list(list(active=0, currentvalue=list(prefix="df: "), steps=steps)), legend=list(x=0.8, y=0.8))
fig

Percentiles de t-student

Sea \(t_{\alpha,n}\) tal que \(P(T_{(n)} \geq t_{\alpha,n}) = \alpha\) el percentil \((1-\alpha)\) de \(T_{(n)}\).

../../_images/t_alpha.png

y \(t_{\frac{\alpha}{2},n-1}\) tal que \(P(T_{(n-1)} \geq t_{\frac{\alpha}{2},n-1}) = \frac{\alpha}{2}\) el percentil \((1-\frac{\alpha}{2})\) de \(T_{(n-1)}\).

../../_images/t_alpha2.png

11.1.4. Teorema del Límite Central#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. según una distribución con media \(\mu\) y varianza \(\sigma^2\), entonces las media muestral \(\overline{X}_n\) cumple:

\[ \lim_{n \to \infty}P\left( \frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \leq z\right) = \Phi(z) \qquad Z \sim \cal{N}(0,1)\]

se dice que

\[ \frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \xrightarrow[]{\;\; \cal{d} \;\; } Z \]
\[ (\frac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt{n}}} \text{ converge en distribución a $Z$ cuando } n \to \infty)\]

Es decir que la media muestral se aproxima a una distribución Normal de media \(\mu\) y varianza \(\frac{\sigma^2}{n}\) cuando \(n\) es grande. \(X_i\) podría tiene cualquier distribución de probabilidad, continua o discreta.

Ilustración

Simulando un cierto número de muestras de distintos tamaños de una distribución definida, y elaborando histogramas de las medias muestrales se obtiene lo siguiente:

#caso binomial (5 ensayos, p=0.4)
library(moments)
set.seed(1) 
params <- c(1:5, seq(10, 100, by=10), seq(200, 300, by=100)) #tamaños de mustras
nmuestra <- 10000
nensayos <- 5
p <- 0.4
muestra <- matrix(0, nrow=nmuestra, ncol=length(params))
for (i in 1:length(params)){
    n <- params[i]
    m <- matrix(rbinom(n * nmuestra, nensayos, p), nrow=nmuestra, ncol=n, byrow=TRUE)
    medias <- m %*% rep(1, n) / n
    esperanza <- nensayos * p
    varianza <- nensayos * p * (1 - p)
    muestra[,i] <- (medias - esperanza) / sqrt(varianza / n)
    #muestra[, i] <- (medias - esperanza) / sqrt(p * (1 - p))
}
steps <- list()
max_x <- 4
vec <- seq(-max_x, max_x, 0.05)
pvec_Z <- dnorm(vec)
fig <- plot_ly(width=600,height=600) %>% 
            layout(title = "\n\n Histograma (convertido en densidad de proba.)\n de medias muestrales, caso binomial",   
                   yaxis = list(range=c(0, 0.8)), xaxis = list(range=c(-max_x, max_x))) %>% 
            add_lines(x=vec, y=pvec_Z, visible=TRUE, mode='lines', line=list(color='blue'), showlegend=TRUE, name="Z") 
for (i in 1:length(params)){
    data <- muestra[,i]
    fig <- add_histogram(fig, data, histnorm = "probability density", visible=ifelse(i==1, TRUE, FALSE), showlegend=TRUE, xbins=list(start=-4,end=4, size=0.5),
                    name=sprintf("N=%d, M=%.2f, SD=%.2f, asim=%.2f, curt=%.2f", params[i], mean(data), sd(data), skewness(data), kurtosis(data)))
    steps[[i]] <- list(args = list('visible', rep(FALSE, length(params)+1)), label=params[i], method='restyle')
    steps[[i]]$args[[2]][1] <- TRUE
    steps[[i]]$args[[2]][i+1] <- TRUE
}
fig <- fig %>% layout(sliders=list(list(active=0, currentvalue = list(prefix = "N: "), steps=steps)), legend=list(x=0.1, y=0.85))
fig

¿Cómo definir n suficientemente grande?

Depende de la distribución poblacional de los datos muestrales. Si la población es normal, la media muestral de distribuye normal independientemente del tamaño.

Regla consensuada: muestra aleatoria de tamaño muestral \(n \geq 30\).

11.2. Estimación de Intervalos de confianza#

Objetivo

Obtener un intervalo con una cierta confianza de que el parámetro poblacional se encuentra ahí. Transitar de la estimación puntual al intervalo de confianza, nos permite ganar en precisión de la estimación al mismo tiempo que incorporamos un cierto nivel de confianza.

11.2.1. Definición#

Un intervalo de confianza \((1-\alpha)\) para un parámetro \(\theta\) es un intervalo \(C_n = (a,b)\) con

\[a= a(X_1,\cdots,X_n) \qquad\text{ y } \qquad b= b(X_1,\cdots,X_n) \]

funciones de los datos tales que:

\[P_{\theta}(\theta \in C_n) \geq 1-\alpha \qquad \forall \theta \in \Theta\]

donde \((1-\alpha)\) es la cobertura (coverage) del intervalo de confianza

Nota

\(C_n\) es aleatorio pero \(\theta\) es fijo. Un intervalo de confianza no es una afirmación de probabilidad (probability statement) sobre \(\theta\).

Ejemplo

Suponga que el tiempo de llegada al trabajo de las personas que viven en Valdivia sigue una distribución Normal de media \(\mu\) y varianaza \(\sigma^2\). Considere que se tiene una muestra aleatoria de 45 personas que trabajan en Valdiva, cuyo tiempo promedio de llegada al trabajo es de 21 minutos con desviación estandar muestral de 9 minutos.

Al calcular un intervalo de confianza al 95% (mas adelante aprenderemos como hacerlo) para la media de la muestra, usando la distribución t-student, se obtiene \((18.3, 23.7)\).

Interpretaciones erróneas de los Intervalos de Confianza

(i) Al \(95\%\) de los 45 trabajadores les toma entre 18.3 y 23.7 minutos llegar al trabajo.

Falso. El intervalo de confianza concierne a todos los trabajadores, no sólo a los 45 de la muestra.

(ii) Hay un \(95\%\) de posibilidades de que el tiempo medio que les tome llegar a su trabajo a todos los trabajadores de Valdivia, esté entre 18.3 y 23.7 minutos.

Falso. Asi descrita, parece una afirmación de probabilidad de \(\theta\) (el parámetro poblacional) pero \(\theta\) es fijo en el contexto de intervalo de confianza.

Interpretaciones correctas de los Intervalos de Confianza

(i) Tenemos una confianza del \(95\%\) de que la media teórica de la distribución se encuentra entre 18.3 y 23.7 minutos.

(ii) Si se extrajeran múltiples muestras aleatorias de la misma población y se calcularan los intervalos de confianza al \(95\%\) para cada muestra, esperamos que la media de la población se encuentre en el \(95\%\) de esos intervalos, o que el \(95\%\) de los intervalos contenga la media teórica.

11.2.2. ¿Cómo calcular un Intervalo de Confianza?#

Clave

Obtener la distribución de probabilidad del estimador puntual

Foco en esta sesión:

Poblaciones distribuidas normalmente para estimar intervalos de confianza de la media (caso 1 y 2) o la diferencia de medias con varianzas conocidas (caso 3). En la tarea, veamos el caso de la diferencia de medias con la varianza desconocida.

11.2.3. Caso 1: Media de distribución Normal con varianza conocida#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) entonces, por el Teo de Fisher-Cochran se cumple

\[ Z = \frac{ \bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \sim {\cal N}(0,1)\]

Sea \(z_{\frac{\alpha}{2}}\) tal que

\[P(-z_{\frac{\alpha}{2}}\leq Z \leq z_{\frac{\alpha}{2}}) = 1-\alpha\]

Entonces se define el intervalo de confianza del \(100(1-\alpha)\%\) para \(\mu\) como:

\[\left(\bar{x} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\right )\]

Ejemplo de señal: Suponga que cuando una señal de valor \(\mu\) es transmitida desde una ubicación A, el valor que se recibe en la localización B sigue una distribución normal de media \(\mu\) y varianza \(\sigma^2\). Considere que para reducir el error, se ha enviado nueve veces el mismo valor. Los sucesivos valores recibidos son: \(5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5\). Construya un intervalo de confianza al \(95\%\) para \(\mu\).

Vemos que \(\bar{x} = \frac{81}{9} = 9\), por otra parte resulta que para \(100(1-\alpha)\% = 95\%\) se tiene que \(z_{\frac{\alpha}{2}}= z_{0.025} = 1.96\)

datos <- c(5, 8.5, 12, 15, 7, 9, 7.5, 6.5, 10.5)
media <- mean(datos)
sigma <- sqrt(2)
n <- 9
alpha <- 0.05
percentil <- qnorm(1 - alpha / 2)
rango1 <- media - percentil * sigma / sqrt(n) 
rango2 <- media + percentil * sigma / sqrt(n)
print(c(media, sigma, rango1, rango2))
[1] 9.000000 1.414214 8.076064 9.923936

11.2.4. Caso 2: Media de distribución Normal con varianza desconocida#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\it N}(\mu,\sigma^2)\) entonces, del Corolario del Teo de Fisher-Cochran se cumple:

\[ \frac{(\bar{X} - \mu)}{\frac{S}{\sqrt{n}}} \sim t_{(n-1)}\]

Sea \(t_{(n-1),\frac{\alpha}{2}}\) tal que

\[P(-t_{(n-1),\frac{\alpha}{2}}\leq t_{(n-1)} \leq t_{(n-1),\frac{\alpha}{2}}) = 1-\alpha\]

Entonces se define el intervalo de confianza del \(100(1-\alpha)\%\) para \(\mu\) como:

\[\left(\bar{x} - t_{(n-1),\frac{\alpha}{2}}\frac{S}{\sqrt{n}}, \bar{x} + t_{(n-1),\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\right )\]

El supuesto de normalidad Notar que los intervalos de confianza para media muestral aquí construidos, se pueden generalizar para el caso de muestras aleatorias que provienen de otras distribuciones de probabilidad distintas a la normal.

En efecto, del Teo del Límite Central se tiene que para \(n\) suficientemente grande (\(n \geq 30\), si la distribucion no es muy asimétrica) :

\[ \frac{\bar{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \approx {\cal N}(0,1)\]

y mas aún, del Teorema de Slutsky se tiene:

\[ \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \approx {\cal N}(0,1)\]

11.2.5. Caso 3: Diferencia de Medias de dos distribuciones Normales con varianzas conocidas#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu_1,\sigma_1^2)\) y \(Y_1,\cdots,Y_m\) v.a.i.i.d. \({\cal N}(\mu_2,\sigma_2^2)\). Suponga además que ambas muestras aleatorias son independientes. En lo que sigue construiremos un intervalo de confianza para la diferencia de medias \(\mu_1-\mu_2\)

del Teo de Fisher-Cochran se cumple:

\[ \bar{X} \sim {\cal N}(\mu_1,\frac{\sigma_1^2}{n})\]
\[ \bar{Y} \sim {\cal N}(\mu_2,\frac{\sigma_2^2}{m})\]

Como \(\bar{X}\) es independiente de \(\bar{Y}\), ambas distribuidas normales, entonces

\[ \bar{X}- \bar{Y} \sim {\cal N}(\mu_1 - \mu_2,\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m})\]

Asi

\[Z = \frac{\bar{X}- \bar{Y} - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}} \sim {\cal N}(0,1)\]

Sea \(z_{\frac{\alpha}{2}}\) tal que

\[P(-z_{\frac{\alpha}{2}}\leq Z \leq z_{\frac{\alpha}{2}}) = 1-\alpha\]

Entonces se define el intervalo de confianza del \(100(1-\alpha)\%\) para \(\mu_1 - \mu_2\) como:

\[\left(\bar{x}-\bar{y} - z_{\frac{\alpha}{2}}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}, \bar{x}-\bar{y} + z_{\frac{\alpha}{2}}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\right )\]

11.3. Test de Hipótesis#

En este caso se trata de utilizar una muestra aleatoria de la población para probar una hipótesis particular sobre los parámetros (en lugar de estimar explícitamente parámetros desconocidos de una distribución poblacional).

11.3.1. ¿Qué es una hipótesis estadística?#

Es una afirmación acerca de un parámetro poblacional.

La hipótesis nula \(H_0\) y la alternativa \(H_1\) son mutuamente exclusivas, pueden o no ser complementarias, de uno o dos lados.

Ejemplo:

\[H_0: \mu = \mu_0\]
\[H_1: \mu \neq \mu_0\]

Un test de hipótesis es una regla que especifica: para que valores muestrales no se rechaza la hipótesis nula \(H_0\), y para que valores muestrales se rechaza la hipótesis nula \(H_0\) en favor de \(H_1\). El subconjunto \(C\) del espacio muestral en donde se rechaza la hipótesis nula se denomina “región de rechazo” o “región crítica”, y su complemento la “región de aceptación”.

Se trata de desarrollar un procedimiento para determinar si una muestra de datos es consistente con la hipotésis nula o no. Para ello se utiliza un estadístico (una función de la muestra) y se observa un valor de este estadístico.

11.3.2. Tipos de Errores, nivel de significancia y potencia#

../../_images/tabla.png
  • \(\alpha\) es la probabilidad de cometer un error tipo I, también se denomina nivel de significancia del test

  • \(\beta\) es la probabilidad de cometer un error de tipo II. \((1-\beta)\) se denomina potencia del test

Ambos errores deben ser considerados. Comenzaremos por manejar el error de tipo I.

En esta lección, veamos test de media de una distribución Normal con varianza conocida (caso 1 y 2) o desconocida (caso 3). En la tarea, veamos test de las medias de dos distribuciones normales, y test de la media de las diferencias de dos distribuciones normales pareadas.

11.3.3. Caso 1: Test de media de dist. Normal con varianza conocida: Enfoque del valor crítico#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) con media desconocida \(\mu\) y varianza conocida \(\sigma^2\), y consideremos el test:

\[H_0: \mu = \mu_0\]
\[H_1: \mu \neq \mu_0\]

con \(\mu_0\) un valor específico dado.

Utilizaremos la media muestral \(\bar{x}\) como una estimación puntual natural de \(\mu\).

Rechazaremos \(H_0\) si \(\bar{x}\) está suficientemente lejos de \(\mu_0\) y no la rechazamos en caso contrario.

¿Qué es suficientemente lejos? Se define la región de rechazo

\[C = \{X_1,\cdots X_n : |\bar{X} - \mu_0 | > c\}\]

Queremos controlar el error de tipo I, \(\alpha\) (es decir, si H0 es verdadero, queremos que la probabilidad de que \(\bar{x}\) esté lejos de \(\mu_0\) sea lo suficientemente pequeña):

\[P_{H_0}( |\bar{X} - \mu_0 | > c) = \alpha\]

Y tenemos que decidir el valor de c.

Como bajo \(H_0\) se cumple:

\[ Z = \frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}} \sim {\cal N}(0,1)\]

donde \(\frac{\bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\) es el estadístico al test.

Sea \(z_{\frac{\alpha}{2}}\) tal que

\[P(|Z| > z_{\frac{\alpha}{2}}) = \alpha\]

entonces

\[P\left(\left|\frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\right| > z_{\frac{\alpha}{2}}\right) = \alpha\]

de manera que se rechaza \(H_0\) si

\[\left|\frac{ \bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\right| > z_{\frac{\alpha}{2}}\]

Y NO se rechaza \(H_0\) si

\[\left|\frac{ \bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\right| \leq z_{\frac{\alpha}{2}}\]

donde \(\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\) es el estadístico de un muestreo dado, y \(z_{\frac{\alpha}{2}}\) y -\(z_{\frac{\alpha}{2}}\) son valores críticos. La región de rechazo es:

\[C = \{X_1,\cdots X_n : |\bar{X} - \mu_0 | > c\} = \{X_1,\cdots X_n : |\bar{X} - \mu_0 | > z_{\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}} \}\]
../../_images/test1.png

11.3.4. Caso 2: Test de media de dist. Normal con varianza conocida: enfoque del p-value#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) con media desconocida \(\mu\) y varianza conocida \(\sigma^2\), y consideremos el test:

\[H_0: \mu = \mu_0\]
\[H_1: \mu \neq \mu_0\]

con \(\mu_0\) un valor específico dado.

El p-value es la probabilidad de observar un valor del estadístico del test igual o mas extremo que el observado, asumiendo que \(H_0\) es verdadero.

Utilizaremos la media muestral \(\bar{x}\) como una estimación puntual natural de \(\mu\).

Especificamos un valor para la significancia \(\alpha\).

Calculamos el estadístico de un muestreo dado:

\[ z = \frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\]

y el p-value:

\[p = 2 P(Z \geq |z|)\]

Si \(p < \alpha\) se rechaza \(H_0\)

Si \(p \geq \alpha\) NO se rechaza \(H_0\)

../../_images/test2.png

El p-value es una medida de evidencia para rechazar \(H_0\): cuanto menor el p-value, mayor es la evidencia para rechazar \(H_0\).

Advertencia

El p-value no es la probabilidad de que la hipótesis nula sea verdadera, no es \(P(H_0\)) ni \(P(H_0 \mid data)\).

Relación entre p-value y regiones críticas para el caso ya estudiado

../../_images/test3.png
z = (8.5-8)/sqrt(2/5)
p_value = 2*(1-pnorm(z))
print(c(z, p_value))
[1] 0.7905694 0.4291953

11.3.5. Error de tipo II y potencia#

El error de tipo II

Cómo medimos el error de no rechazar \(H_0\) cuando \(H_1\) es verdadero?

La dificultad que encontramos es que la especificación de \(H_1\) es bastante amplia:

\[H_1 : \mu \neq \mu_0\]

Asumiremos que la media poblacional es \(\mu \neq \mu_0\).

Para el caso que hemos estado estudiando: población normal con varianza conocida, podemos hacer la siguiente derivación:

\(\begin{array}{lll} \beta(\mu) & = & P_{\mu}\{\text{no rechazar } H_0\}\\ &&\\ & = & P_{\mu}\left\{\left|\frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\right| \leq z_{\frac{\alpha}{2}}\right \}\\ &&\\ & = & P_{\mu}\left\{ -z_{\frac{\alpha}{2}} \leq \frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}\leq z_{\frac{\alpha}{2}}\right \}\\ &&\\ & = & P_{\mu}\left\{ -z_{\frac{\alpha}{2}}-\frac{\mu}{\frac{\sigma}{\sqrt{n}}} \leq \frac{ \bar{X}-\mu_0 - \mu}{\frac{\sigma}{\sqrt{n}}}\leq z_{\frac{\alpha}{2}} -\frac{\mu}{\frac{\sigma}{\sqrt{n}}}\right \}\\ &&\\ & = & P_{\mu}\left\{ -z_{\frac{\alpha}{2}}-\frac{\mu}{\frac{\sigma}{\sqrt{n}}} \leq Z - \frac{\mu_0}{\frac{\sigma}{\sqrt{n}}} \leq z_{\frac{\alpha}{2}} -\frac{\mu}{\frac{\sigma}{\sqrt{n}}}\right \}\\ &&\\ & = & P_{\mu}\left\{ \frac{\mu_0 -\mu}{\frac{\sigma}{\sqrt{n}}}-z_{\frac{\alpha}{2}} \leq Z \leq \frac{\mu_0 - \mu}{\frac{\sigma}{\sqrt{n}}}+ z_{\frac{\alpha}{2}} \right \}\\ &&\\ & = & \Phi\left (\frac{\mu_0 -\mu}{\frac{\sigma}{\sqrt{n}}}+z_{\frac{\alpha}{2}}\right) - \Phi\left (\frac{\mu_0 -\mu}{\frac{\sigma}{\sqrt{n}}}-z_{\frac{\alpha}{2}}\right) \end{array}\)

\(\beta(\mu)\) representa la probabilidad de error de tipo II y se denomina curva característica operacional (OC). Ahora veamos cómo esta probabilidad cambia cuando \(\mu\) cambia.

# suppressMessages(library(plotly))
mu0 <- 0
sigma_pob <- 5
n <- 25 #tamaño de la muestra
alpha <- 0.05
mus <- seq(0, 3, by=0.5)
n_mu <- length(mus)
vec_min <- -5 # tiene que ser menor que vc_conv_izq
vec_max <- 3 # tiene que ser mayor que vc_conv_der

# 1. Distribución bajo H1, convertido a normal estándar, con eje X es (X_bar - mu) / (sigma / sqrt(n))
vec <- seq(vec_min, vec_max, by=0.05)
pvec <- dnorm(vec)
fig <- plot_ly(width=600,height=400) %>% 
        layout(title="\n Proba. de error de tipo II (beta) \nen funcion de la media pobla. (mu)", yaxis=list(range=c(0, 0.5)), xaxis=list(range=c(vec_min, vec_max))) %>%
        add_lines(x=vec, y=pvec, line=list(color='blue'), visible=TRUE, showlegend=TRUE, name="H1")
steps <- list()
for (i in 1:n_mu){
  mu <- mus[i]
  # 2. Distribución bajo H0, con eje X es (X_bar - mu) / (sigma / sqrt(n)). Cambia conforme mu cambia.
  # mu0 convertido a eje (X_bar - mu) / (sigma / sqrt(n))
  mu0_conv <- (mu0 - mu) / (sigma_pob / sqrt(n))
  fig <- add_lines(fig, x=vec, y=dnorm(vec, mean=mu0_conv), visible=ifelse(i==1, TRUE, FALSE), type='scatter', mode='lines', 
                    line=list(color='red'), showlegend=TRUE, name="H0")
  # 3. El polygon amarillo del lado izquierdo de mu0
  # Valor crítico izquierdo convertido a eje (X_bar - mu) / (sigma / sqrt(n))
  vc_conv_izq <- (mu0 - mu) / (sigma_pob / sqrt(n)) - qnorm(1 - alpha / 2) #Z_alpha/2 
  vec_poly <- seq(vec_min, vc_conv_izq, by=0.01)
  fig <- add_polygons(fig, x=c(vec_min, vec_poly, vc_conv_izq), y=c(0, dnorm(vec_poly, mean=mu0_conv), 0), fill='tozeroy', #c(0,...0) is needed to enclose the polygon
                      fillcolor='rgba(255, 212, 96, 0.5)', line=list(color='rgba(255, 212, 96, 0.5)'), visible=ifelse(i==1, TRUE, FALSE), showlegend=FALSE)
  # 4. El polygon amarillo del lado derecho de mu0
  # Valor crítico derecho convertido a eje (X_bar - mu) / (sigma / sqrt(n))
  vc_conv_der <- (mu0 - mu) / (sigma_pob / sqrt(n)) + qnorm(1 - alpha / 2) #Z_alpha/2 
  vec_poly <- seq(vc_conv_der, vec_max, by=0.01)
  fig <- add_polygons(fig, x=c(vc_conv_der, vec_poly, vec_max), y=c(0, dnorm(vec_poly, mean=mu0_conv), 0), fill='tozeroy',
                      fillcolor='rgba(255, 212, 96, 0.5)', line=list(color='rgba(255, 212, 96, 0.5)'), visible=ifelse(i==1, TRUE, FALSE), showlegend=FALSE)
  # 5. El polygon azul (beta)
  vec_poly <- seq(vc_conv_izq, vc_conv_der, by=0.01)
  fig <- add_polygons(fig, x=c(vc_conv_izq, vec_poly, vc_conv_der), y=c(0, dnorm(vec_poly), 0), fill='tozeroy',
                       fillcolor='rgba(168, 216, 234, 0.5)', line=list(color='rgba(168, 216, 234, 0.5)'), visible=ifelse(i==1, TRUE, FALSE), showlegend=TRUE, name="beta")
  
  # Configura la visibilidad
  #   step$args[[2]]: Por ejemplo veamos los indices: 1  2,3,4,5(i=1)  6,7,8,9(i=2) ....  38,39,40,41(i=10)
  #   1: Figura 1 siempre se muestra en todas iteraciones de i
  #   Cuando i=1, figuras 2,3,4,5 son mostradas
  #   Cuando i=2, figuras 6,7,8,9 son mostradas
  step <- list(args=list('visible', rep(FALSE, 4*n_mu+1)), method='restyle', label=mu)
  step$args[[2]][1] = TRUE
  step$args[[2]][4*i-2] = TRUE
  step$args[[2]][4*i-1] = TRUE
  step$args[[2]][4*i] = TRUE
  step$args[[2]][4*i+1] = TRUE
  steps[[i]] = step  
}  
fig <- fig %>% layout(sliders=list(list(active=0, currentvalue=list(prefix="mu: "), steps=steps, y=-0.1, x=0)), legend=list(x=0.8, y=0.85), 
                      xaxis=list(title='(xbar-mu)/(sigma_pob/sqrt(n))'), yaxis=list(title='densidad de probabilidad')) #TeX("\\bar{X}-\\mu)/(\\sigma/sqrt(n))")
#fig <- fig %>% config(mathjax='cdn')
fig

También \(\beta\) cambia a medida que el tamaño de la muestra \(n\) cambia.

mu0 <- 0
sigma0 <- 6.0
alpha <- 0.05
perc <- qnorm(1-alpha/2) 
perc
vec_mu <- seq(mu0,20+mu0,by=0.05)

params <- seq(1,30,by=1)
aval <- list()

for (i in 1:length(params)){
  x_d = sqrt(params[i])*(mu0-vec_mu)/sigma0 + perc
  x_i = sqrt(params[i])*(mu0-vec_mu)/sigma0 - perc     
  aval[[i]] <-list(visible =ifelse(i==1, TRUE, FALSE), y=pnorm(x_d)-pnorm(x_i))                    
}
1.95996398454005
steps <- list()
fig1 <- plot_ly(width=600,height=400) %>% layout(title="\n \n   Proba. de error de tipo II \nen funcion del tamano de la muestra",
                                                yaxis=list(title='Beta', range=c(0, 1)), xaxis=list(title='mu'))
for (i in 1:length(params)){
  fig1 <- add_lines(fig1, x=vec_mu, y=aval[[i]]$y, visible = aval[[i]]$visible,
                      type = 'scatter', mode = 'lines', line=list(color='blue'), showlegend=FALSE)
  step <- list(args=list('visible', rep(FALSE, length(aval))), method='restyle', label=params[i])
  step$args[[2]][i] = TRUE
  steps[[i]] = step 
}  
fig1 <- fig1 %>% layout(sliders=list(list(active=0, currentvalue=list(prefix="n: "), steps=steps, y=-0.1, x=0)))
fig1

Potencia

\(1 - \beta(\mu)\) se denomina función potencia o potencia estadística. Según

\( \beta(\mu) = \Phi\left (\frac{\mu_0 -\mu}{\frac{\sigma}{\sqrt{n}}}+z_{\frac{\alpha}{2}}\right) - \Phi\left (\frac{\mu_0 -\mu}{\frac{\sigma}{\sqrt{n}}}-z_{\frac{\alpha}{2}}\right) = \Phi\left (\frac{\sqrt{n}(\mu_0 -\mu)}{\sigma}+z_{\frac{\alpha}{2}}\right) - \Phi\left (\frac{\sqrt{n}(\mu_0 -\mu)}{\sigma}-z_{\frac{\alpha}{2}}\right) \)

y lo que mostramos en la figura “Proba. de error de tipo II en funcion de la media pobla.”, el error de tipo II depende de el tamaño de la muestra \(n\), la varianza conocida \(\sigma^2\), el nivel de significancia \(\alpha\) y el tipo de test (de uno o dos lados) y la diferencia ente \(\mu\) y \(\mu_0\).

¿Cómo incrementar la potencia estadística?

  • aumentar el tamaño de la muestra

  • disminuir la varianza

  • aumentar el nivel de significancia, manteniendo un equilibrio entre los errores de tipo I y II

  • usar un test de un lado

11.3.6. Test de un lado#

¿En qué casos usar una test de un lado?

  • si sabemos que los valores no pueden ser mayores (o menores) que \(\mu_0\)

  • que interesa solamente el efecto en una dirección. Ejemplo, probar que un nuevo medicamento es mas efectivo que uno existente, dado que es mas barato.

Veamos el caso en que la hipótesis alternativa indica que el valor de la media es mayor que \(\mu_0\):

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) con media desconocida \(\mu\) y varianza conocida \(\sigma^2\), y consideremos el test:

\[H_0: \mu = \mu_0\]
\[H_1: \mu > \mu_0\]

con \(\mu_0\) un valor específico dado.

Queremos controlar el error de tipo I, \(\alpha\). Es decir, si H0 es verdadero, queremos que la probabilidad de que \(\bar{x}\) esté mayor y lejos que \(\mu_0\) sea lo suficientemente pequeña, porque el test contrasta sólo respecto de valores a la derecha de la distribución:

\[P_{H_0}( \bar{X} - \mu_0 > c) = \alpha\]

Como bajo \(H_0\) se cumple:

\[ Z = \frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}} \sim {\cal N}(0,1)\]

Sea \(z_{\alpha}\) tal que

\[P_{H_0}(Z > z_{\alpha}) = \alpha\]

entonces

\[P\left(\frac{ \bar{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}} > z_{\alpha}\right) = \alpha\]

de manera que:

  • Se rechaza \(H_0\) si \(\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}} > z_{\alpha}\) (valor crítico)

  • No se rechaza \(H_0\) si \(\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}} \leq z_{\alpha}\)

Desde el enfoque del p-value:

\[p = P_{H_0}( Z \geq \frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}})\]
  • Si \(p < \alpha\) se rechaza \(H_0\)

  • Si \(p \ge \alpha\) NO se rechaza \(H_0\)

11.3.7. Caso 3: Test de media de dist. Normal con varianza desconocida (caso común)#

Sean \(X_1,\cdots,X_n\) v.a.i.i.d. \({\cal N}(\mu,\sigma^2)\) con media y varianzas desconocidas \((\mu, \sigma^2)\), y consideremos el test:

\[H_0: \mu = \mu_0\]
\[H_1: \mu \neq \mu_0\]

con \(\mu_0\) un valor específico dado.

En este caso tenemos el estadístico asociado al test

\[ T = \frac{\bar{X}-\mu_0}{\frac{S}{\sqrt{n}}} \sim t_{n-1}\]

con

\[ S^2= \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\]

Sea \(t_{\frac{\alpha}{2},n-1}\) tal que

\[P_{H_0}( |T| > t_{\frac{\alpha}{2},n-1}) = \alpha\]

entonces

\[P_{H_0}(\left| \frac{\bar{X}-\mu_0}{\frac{S}{\sqrt{n}}} \right| > t_{\frac{\alpha}{2},n-1}) = \alpha\]

de manera que:

  • Se rechaza \(H_0\) si \(|t| > t_{\frac{\alpha}{2},n-1}\)

  • No se rechaza \(H_0\) en caso contrario

donde el estadístico de un muestreo dado es:

\[t = \frac{ \bar{x}-\mu_0}{\frac{s}{\sqrt{n}}} \]

Desde el enfoque del p-value:

\[p = 2 P_{H_0}( T \geq |t|)\]
  • Si \(p < \alpha\) se rechaza \(H_0\)

  • Si \(p \geq \alpha\) NO se rechaza \(H_0\)

11.3.8. Robustez#

  • Una prueba de hipótesis es robusta si aún produce resultados válidos, incluso si se violan las suposiciones.

  • En esta lección, los estadísticos de test requieren provenir de una muestra aleatoria normal o una distribución t.

    • Los test que dependen de \(Z\) son robustos respecto de la hipótesis de normalidad siempre que un tamaño de muestra suficientemente grande.

    • Los test que depende de \(t\) son robustos respecto de la hipótesis de normalidad (en el sentido que la normalidad no tiene gran influencia en las tasas de error de tipo I), cuando el alejamiento (departure) de la normalidad no es grande, o el tamaño de la muestra es grande.

  • Cuando la hipótesis de normalidad está muy lejos de cumplirse, se sugiere transformar los datos o usar test no-paramétricos como por ejemplo el test de Mann-Whitney.